Prosodic Phrase Break Prediction: Problems in the Evaluation of Models against a Gold Standard. (Prédiction des frontières prosodiques entre syntagmes : le problème de l'évaluation des modèles à l'aide d'un corpus de référence)

نویسندگان

  • Claire Brierley
  • Eric Atwell
چکیده

The goal of automatic phrase break prediction is to identify prosodic-syntactic boundaries in text which correspond to the way a native speaker might process or chunk that same text as speech. This is treated as a classification task in machine learning and output predictions from language models are evaluated against a ‘gold standard’: human-labelled prosodic phrase break annotations in transcriptions of recorded speech the speech corpus. Despite the introduction of rigorous metrics such as precision and recall, the evaluation of phrase break models is still problematic because prosody is inherently variable; morphosyntactic analysis and prosodic annotations for a given text are not representative of the range of parsing and phrasing strategies available to, and exhibited by, native speakers. This article recommends creating automatically-generated POS tagged and prosodically annotated variants of a text to enrich the gold standard and enable more robust ‘noisetolerant’ evaluation of language models. RESUME. L'objectif de la prédiction automatique des frontières entre syntagmes est d'identifier dans le texte les frontières prosodiques et syntaxiques qui correspondent à la manière dont un locuteur natif traiterait ou découperait ce texte en parlant. Ceci correspond à une tâche de classement en apprentissage automatique et les prédictions produites à partir des modèles de langage sont évaluées à l'aide d'un corpus de référence, c'est-à-dire un corpus de parole transcrite annoté manuellement par les frontières prosodiques entre syntagmes. Malgré l'utilisation de mesures rigoureuses comme la précision et le rappel, l'évaluation des modèles de frontières entre syntagmes reste problématique car la prosodie est intrinsèquement variable : l'analyse morphosyntaxique et les annotations prosodiques d'un texte donné ne sont pas représentatives de l'ensemble des stratégies d'analyse et de découpage possibles utilisées Title of the journal. Volume X – no X/2002, pages 1 to n 2 Title of the journal. Volume X – no X/2002 par les locuteurs natifs. Cet article recommande de générer automatiquement des variantes d'étiquetage morphosyntaxique et d'annotation prosodique d'un texte pour enrichir le corpus de référence et permettre une évaluation des modèles de langage plus robuste et tolérante au bruit.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Prosodic Phrase Break Prediction: Problems in the Evaluation of Models against a Gold Standard

The goal of automatic phrase break prediction is to identify prosodic-syntactic boundaries in text which correspond to the way a native speaker might process or chunk that same text as speech. This is treated as a classification task in machine learning and output predictions from language models are evaluated against a ‘gold standard’: human-labelled prosodic phrase break annotations in transc...

متن کامل

Bacteriological Study of Asymptomatic Urinary Tract Infections in Pregnant Women in Tehran

Des infections Microbiennes de l'apparell urinaire se voient beaucoup en periode de gros­sesse.  Chez 25% des femmes enceintes, la bacteru­rie sans symptomes aboutit a une infection sym­ptomatique des voiles urinaires dans les mois ulterieurs de la grossesse, c'est pour cette raison qu'il est utile de demander, comme routine, des examens bacteriologiques d'urine, surtout pen­dant la grossesse....

متن کامل

فایل کامل مجلّه مطالعات زبان فرانسه دو فصلنامه علمی پژوهشی زبان فرانسه دانشکده زبانهای خارجی دانشگاه اصفهان

Tâ ÇÉÅ wx W|xâ Revue des Études de la Langue Française Revue semestrielle de la Faculté des Langues Étrangères de l'Université d'Ispahan Cinquième année, N° 8 Printemps-Eté 2013, ISSN 2008- 6571 ISSN électronique 2322-469X Cette revue est indexée dans: Ulrichsweb: global serials directory http://ulrichsweb.serialssolutions.com Doaj: Directory of Open Access Journals http://www.doaj.org ...

متن کامل

Résumé automatique de texte avec un algorithme d'ordonnancement

Résumé: Dans cet article, nous proposons une nouvelle approche pour le résumé automatique de textes utilisant un algorithme d'apprentissage numérique spécifique à la tâche d'ordonnancement. L'objectif est d'extraire les phrases d'un document qui sont les plus représentatives de son contenu. Pour se faire, chaque phrase d'un document est représentée par un vecteur de scores de pertinence, où cha...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2007